AI Agent 核心概念与架构

如果说 ChatGPT 让大模型学会了"说话"，那 Agent 就是让大模型学会了"做事"。Agent 不只是回答问题——它能思考、规划、使用工具、执行动作，像一个真正的数字员工。理解 Agent 的核心架构，是 AI 产品经理把握下一波 AI 产品浪潮的必修课。

1. Agent 到底是什么

1.1 一句话定义

AI Agent = LLM + 规划能力 + 工具使用 + 记忆 + 自主执行

普通 Chatbot 是「你问我答」，Agent 是「你给目标，我自己想办法完成」。

普通 Chatbot：
用户："帮我查一下北京明天的天气" → 模型："我无法访问实时数据..."

Agent：
用户："帮我查一下北京明天的天气"
→ 思考：需要调用天气 API
→ 行动：调用 get_weather("北京", "明天")
→ 观察：返回"晴，15-25°C"
→ 回答："北京明天晴天，15-25°C，适合户外活动。"

1.2 Agent vs Chatbot vs Copilot

维度	Chatbot	Copilot	Agent
交互模式	你问我答	我建议你确认	你定目标我执行
工具使用	无	有限	丰富（搜索、API、代码执行等）
自主决策	无	低	高
规划能力	无	无	有（任务拆解、多步执行）
代表产品	ChatGPT 基础版	GitHub Copilot	Devin、Claude Code、AutoGPT

关键判断标准：如果用户说完一句话后，系统需要自主执行多个步骤才能完成任务——那它就是 Agent。

2. Agent 四大核心组件

2.1 规划（Planning）

Agent 收到任务后的第一步：把复杂任务拆解为可执行的子任务。

任务分解示例：

用户目标："帮我分析竞品 Notion AI 的产品策略"

Agent 规划：
├── Step 1: 搜索 Notion AI 最新功能更新
├── Step 2: 搜索 Notion AI 定价策略变化
├── Step 3: 搜索用户对 Notion AI 的评价
├── Step 4: 整合信息，撰写分析报告
└── Step 5: 生成对比表格和建议

主流规划方法：

方法	原理	优点	缺点
ReAct	思考→行动→观察，循环执行	简单可靠	每步都要推理，较慢
Plan-and-Execute	先生成完整计划，再逐步执行	效率高	计划可能需要动态调整
Tree of Thoughts	探索多条路径，选最优	推理质量高	计算成本高

2.2 记忆（Memory）

Agent 需要记住之前发生了什么，才能做出连贯的决策。

短期记忆（Working Memory）：当前对话的上下文，存在 Context Window 中。

长期记忆（Long-term Memory）：跨会话的信息，通常存储在向量数据库中。

短期记忆：用户刚才让我查了 Notion AI 的定价
长期记忆：上周用户提过他们的产品预算是 10 万/月
→ Agent 可以自动对比 Notion AI 的价格是否在预算内

2.3 工具（Tools）

工具是 Agent 与外部世界交互的接口。没有工具的 Agent 只能"想"，有了工具才能"做"。

常见工具类型：

工具类型	示例	对应能力
搜索	Google Search、Bing API	获取实时信息
代码执行	Python 沙箱、Bash Shell	数据计算、自动化
API 调用	Slack、GitHub、数据库	操作外部系统
文件操作	读写文件、PDF 解析	处理文档
浏览器	网页浏览、截图	访问网页内容

工具调用流程（Function Calling）：

1. 模型分析用户需求
2. 模型决定需要调用哪个工具，生成参数
3. 系统执行工具调用
4. 将工具返回结果注入上下文
5. 模型基于结果继续推理或生成回答

2.4 行动（Action）

Agent 根据规划和工具调用结果，执行具体动作并产生真实影响。

关键设计问题：哪些行动需要人类确认？

低风险（自动执行）：搜索信息、读取文件、数据分析
中风险（建议确认）：发送消息、修改文档
高风险（必须确认）：删除数据、金融交易、发布内容

3. ReAct 模式详解

ReAct（Reasoning + Acting）是目前最主流的 Agent 执行模式。

3.1 执行循环

ReAct 循环：
Thought（思考）→ Action（行动）→ Observation（观察）→ 重复直到任务完成

示例：查找某公司最新融资信息

Thought: 我需要查找这家公司的最新融资信息
Action: search("公司名 + 最新融资")
Observation: 搜索结果显示 2024 年 3 月完成 B 轮融资 5000 万美元

Thought: 我找到了融资信息，但还需要确认投资方
Action: search("公司名 + B轮 + 投资方")
Observation: 由红杉资本领投，老股东跟投

Thought: 信息已经足够完整，可以回答用户了
Answer: 该公司于 2024 年 3 月完成 B 轮融资，金额 5000 万美元，由红杉资本领投。

3.2 产品设计要点

思考过程是否展示给用户？ 展示可以增强信任感，但会增加视觉复杂度
工具调用失败怎么办？ 必须设计重试和降级策略
循环次数上限？ 防止 Agent 陷入无限循环（通常设 10-15 次上限）

4. 单 Agent vs 多 Agent

4.1 单 Agent

一个 Agent 处理所有任务。适合简单场景。

优点：架构简单，上下文共享自然缺点：能力天花板低，复杂任务容易混乱

4.2 多 Agent（Agent Swarm / Multi-Agent）

多个专业化的 Agent 协作完成复杂任务。

多 Agent 协作示例：AI 产品需求评审

📋 PM Agent（产品经理）：接收需求，拆解为技术问题
🔧 Tech Agent（技术顾问）：评估技术可行性和成本
📊 Data Agent（数据分析师）：分析相关数据指标
💰 Biz Agent（商业分析师）：评估商业价值和 ROI
📋 PM Agent：汇总各方输入，生成评审报告

主流多 Agent 框架：

框架	特点	适合场景
CrewAI	角色定义 + 任务流程	团队协作模拟
AutoGen (Microsoft)	对话驱动的多 Agent	研究探索
LangGraph	状态图驱动	复杂工作流
Claude Code Teams	原生多 Agent	代码项目协作

4.3 选型建议

决策树：
├── 任务简单，步骤 < 5 → 单 Agent
├── 任务复杂但领域单一 → 单 Agent + 多工具
└── 任务跨领域、需要多种专业能力 → 多 Agent

5. Agent 产品案例分析

5.1 Devin（软件工程 Agent）

定位：自主完成编程任务的 AI 软件工程师
架构：规划 + 代码编辑器 + 终端 + 浏览器
产品洞察：不是 Copilot（建议代码），而是 Agent（独立完成任务）
PM 启发：Agent 产品的关键不是"能做什么"，而是"做错了用户怎么纠正"

5.2 Claude Code

定位：终端中的 AI 编程助手，能读写文件、执行命令
Skills 系统：用户可以安装/创建自定义能力模块
Team 模式：多个 Agent 协作完成复杂项目
PM 启发：Agent 的可扩展性（Skills/插件）是生态护城河

5.3 Perplexity

定位：AI 搜索引擎
Agent 特征：自动搜索多个来源 → 综合分析 → 生成引用答案
PM 启发：Agent 不一定是"全自动"——搜索+综合就已经是 Agent 模式

6. AI PM 需要关注的 Agent 产品设计要点

6.1 可观测性

用户需要理解 Agent 在做什么。设计上要展示：

当前步骤和进度
工具调用过程
中间结果

6.2 可控性

用户需要随时能干预。提供：

暂停/继续
修改计划
撤销操作

6.3 可预测性

Agent 的行为应该在用户预期范围内：

执行前展示计划让用户确认
高风险操作强制人工审批
设置资源消耗上限（Token、时间、API 调用次数）

核心要点

Agent = LLM + 规划 + 工具 + 记忆 + 执行，缺一不可
ReAct 是主流执行模式：思考→行动→观察的循环
工具是 Agent 的双手：没有工具调用能力的 Agent 不是真正的 Agent
多 Agent 适合复杂跨领域任务，但增加了协调成本
Agent 产品设计的核心矛盾：自主性 vs 可控性——给用户安全感是第一优先级